Phương pháp tiếp cận Word2vec

Word2vec là một nhóm các mô hình có quan hệ với nhau được dùng để sản sinh các nhúng từ (word embedding). Các mô hình này là các mạng thần kinh nông hai lớp, được huấn luyện để tái tạo lại ngữ cảnh ngữ nghĩa của các từ vựng. Word2vec có dữ liệu đầu vào là một ngữ liệu văn bản lớn và đầu ra là một không gian vectơ, điển hình vài trăm chiều, với mỗi từ duy nhất trong ngôn ngữ học khối liệu (corpus linguistics) được gán cho một vectơ tương ứng trong không gian vectơ. Các vectơ từ được đặt trong không gian vectơ sao cho những từ chia sẻ chung ngữ cảnh trong kho ngữ liệu có vị trí gần nhau (tính theo độ tương tự ngữ nghĩa) trong không gian.[3]